中关

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关

在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时，能够将大规模算

北京大学勺园、中关新园秉承“服从学校大局、服务广大师生”的根本宗旨，为国内外专家、留学生及中外宾客提供住宿、餐饮、会议等优质服务，倾力打造专业化、综合性、国际化的高校多功能服务园区。